3.12.3. Линейное предсказание.

         Идея линейного предсказания (ЛП) заключается в формировании из нескольких отсчетов речи линейную комбинацию, наиболее точно аппроксимирующую следующий отсчет (формула 1). Для этого сигнал речи сегментируют на блоки, обрабатывают "окном" и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит достаточную информацию о формантном спектре речи на данном сегменте.
         На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания, необходимых для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП (р в формуле 3.1), тем точнее модель.


        Далее пропустив исходную речь через фильтр, обратный полученному, формируют функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим.
         На третьем шаге параметры ЛП квантуются и передаются на приемную сторону. Ошибка предсказания (разностный сигнал), обозначенный в формуле 3.2 через R(n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction - ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Следует отметить, что существуют и другие подходы. Однако в любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения.
         В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения и пропускают его через синтезирующий фильтр с целью получения речевого сигнала.


Рис. 3.19. Осциллограммы фрагмента звонкой речи
(на графике слева - исходный сигнал, справа - сигнал возбуждения ОТ, выделенный из речи).
В нижнем ряду показаны соответствующие верхним графикам спектры
(на осях отложены частота в Гц и амплитуда в дБ).


        На графиках сигнала звонкой речи и возбуждения хорошо видна их квазипериодичность, отраженная линейчатостью спектров. В спектре сигнала звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области - в районе 300 Гц, 1700 Гц и 2600 Гц, - соответствующие описанным выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следует с некоторой периодичностью. Кроме того, энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Установлено, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее обстоятельство свидетельствует об избыточности сигнала, и в этом заложен большой ресурс для сжатия.
         Из-за периодичности сигналов присутствующий на показанном участке звонкой речи, случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речевого сигнала в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (обратите внимание, как иной раз "разговаривает" цифровой сотовый или Интернет-телефон).
         Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5-30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи).
         Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются всё новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не существует. Что касается сокращенного описания сигнала возбуждения в целом, то здесь дело обстоят еще хуже, эффективных "конструктивных" методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.


Рис. 3.20. Осциллограммы фрагмента глухой речи
(на графике слева - исходный сигнал, справа - сигнал возбуждения ОТ, выделенный из речи).
В нижнем ряду показаны соответствующие верхним графикам спектры
(на осях отложены частота в Гц и амплитуда в дБ).


        Из рисунка видно, что он имеет случайный, шумовой характер. Это же отражено и на ее спектре. Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте также получило определенное спектральное усиление, а в целом, речь и возбуждение малокоррелированы.
         После появления первых вокодеров, в связи с развитием техники связи и многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабился интерес к сжатию речи. Вокодеры применялись только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной.
         В цифровой связи широко использовались два алгоритма нелинейной ИКМ, которые обеспечивали высококачественную телефонную связь. Первый алгоритм был принят в Европе ("А-закон") ,а второй в США ("мю-закон") и они по разному реализовывали один и тот же стандарт. Отсутствие единого стандарта, с развитием международных связей, стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую. Учитывая, что трафик между США и Европой большой, то и перекодировок требуется немало. Кроме того, вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS. Перекодировки, а точнее отсутствие единых стандартов, сильно ухудшают качество звучания и сдерживают развитие рынка.
         Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей речь стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Здесь, предыдущий отсчет берется с определенным весом, формируя прогноз для последующего. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась технология адаптивной дифференциальной ИКМ (АДИКМ). При АДИКМ размеры шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ. Однако алгоритм управления адаптацией шкалы вносит запаздывание, ухудшающее качество речи.
         В 1987 году во вкладе СССР в Международный консультативный комитет по телефонии и телеграфии был описан алгоритм АДИКМ G.721-bis с ускоренной адаптацией шага. Затем рекомендация G.721 еще несколько раз улучшалась, и в 1984 году был принят стандарт ITU-T G.726 на АДИКМ (32 кбит/с), но с лучшим качеством, используемый по настоящее время на спутниковых и других линиях связи. Затем в 1984 год был принят стандарт ITU-T G.726 на скорость 32 кбит/с, а в 1990 году сложный, дорогой, но все-таки низкоскоростной кодек на 6,4 кбит/с (используется в спутниковой связи INMARSAT). В 1992 году - европейский сотовый стандарт GSM (13 кбит/с) и стандарт ITU-T G.728 LD-CELP (16 кбит/с) и т. д. Кроме перечисленных имеется много других общепризнанных алгоритмов, характеристики некоторых основных их них приведены в таблице.


         Настоящим же прорывом в кодировании речи стали кодеки на базе линейного предсказания (ЛП), появившиеся в конце 60-х и до сих пор остающиеся основным способом сжатия речи. В таблице кодеки на базе ЛП занимают позиции с четвертой по девятую. Кстати говоря, сигнал возбуждения и спектрограммы, показанные на рис.3.12 и 3.12, были получены именно с помощью ЛП.
         Из относительно новых алгоритмов стоит назвать совместную разработку фирм Audiocodec (Израиль) и DSP Group (США) - ЛП-кодек на скорость 6,3 кбит/с. Несмотря на значительно большую, чем у АДИКМ, среднеквадратичную погрешность синтеза, получена лучшая (3,9 балла MOS) оценка качества, чем у АДИКМ. Это достигнуто благодаря двум усовершенствованиям алгоритма линейного предсказания алгебраического CELP. Во превых длина сглаживающего окна трехкратно увеличена относительно длины анализируемого сегмента речи, что ослабило искажения, вносимые асинхронностью анализируемых сегментов речи и интервалов ОТ. Во вторых применен метод более точного формирования сигнала возбуждения синтезирующего фильтра, названный авторами MP-MLQ (Multipulse Maximum Likelihood Quantisation). Еще одним важным преимуществом этого алгоритма является более надежное по сравнению с предшественниками вычисление параметров ОТ.
         На базе этого кодека фирма Rad Data Communications (США) выпускает аппаратуру статистического уплотнения телефонных каналов сетей общего назначения. В канале 64 кбит/с удается разместить до тринадцати телефонных каналов. На сегодняшний день этот кодек считается одним из наиболее перспективных и для IP-телефонии.
         Другой интересный подход реализован в кодеке MELP (Mixed Exitation Linear Prediction - кодек ЛП со смешанным возбуждением) на скорость 2,4 кбит/с, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарта США FS-1016, до сих пор используемого в правительственных сетях США. В этом кодеке использованы четырехполосный анализ речи и ЛП. На его базе уже появилась аппаратура для систем мобильной радиосвязи, не уступающая по качеству речи известным цифровым радиостанциям, но более доступная по цене.
         В будущем можно ожидать появления кодеков с качеством, не уступающим ITU-T G-729 (8 кбит/с, см. таблицу), но работающих на скоростях ниже 4,8 кбит/с и вносящих задержку, не превышающую предельно допустимую (0,2 с), некогда установленную МККТТ для телефонных сетей общего назначения. По-видимому, кодеки ЛП следующего поколения будут работать рекуррентно, и поэтому будут исключены имеющие сегодня место искажения от блочной сегментации, появятся новые принципы выделения ОТ и получения сигнала возбуждения, синхронные с интервалом ОТ.
         Для радиотелефонной связи с подвижными объектами ни ИКМ, ни АДИКМ не используются из-за их слишком высоких скоростей и узости радиоканалов связи. Для связи с морскими судами было предложено несколько кодеков, среди которых наибольший интерес представляет кодек Inmarsat-М (система спутниковой радионавигации), используемый ныне всеми странами и работающий по алгоритму IMBE (улучшенное многополосное возбуждение). Широкое применения этого кодека во всем мире позволяет считать его международным стандартом. В алгоритме этого кодека спектр речи делят фильтрами на несколько полос и в каждой полосе принимают отдельное решение "звонко-глухо". Благодаря подстройке фильтров к гармоникам частоты ОТ, достигается вполне удовлетворительное качество речи, несмотря на низкую скорость. Для лучшего выделения ОТ анализируют нескольких интервалов ОТ и формируют его интегральную оценку. Однако следует отметить, что кодек IMBE относительно сложен и имеет высокую стоимость.